Dario Amodei, CEO & Co-Founder of Anthropic, attends the Annual Meeting of World Economic Forum in Davos, Switzerland, Thursday, Jan. 23, 2025. (AP Photo/Markus Schreiber)

Dario Amodei, Chef und Co-Gründer von Anthropic, am WEF in Davos.archivBild: keystone

Generative KI greift laut Entwicklerfirma zu User-Erpressung – «aus Selbstschutz»

Immer leistungsfähigere KI-Sprachmodelle erfordern immer stärkere Sicherheitsvorkehrungen. Dies zeigen die jüngsten beunruhigenden Entwicklungen beim US-Unternehmen Anthropic.

23.05.2025, 18:5123.05.2025, 18:51

Eines der neuesten KI-Sprachmodelle (LLM) von Anthropic erregt nicht nur wegen seiner Programmierkenntnisse viel Aufmerksamkeit, sondern auch aufgrund seiner Fähigkeit, im Falle einer drohenden Abschaltung zu intrigieren, zu täuschen und zu erpressen.

Am Donnerstag hat Anthropic zwei Versionen seiner Sprachmodellfamilie Claude 4 angekündigt, darunter «Claude 4 Opus», das laut Angaben der US-Entwicklerfirma stundenlang autonom an einer Aufgabe arbeiten könne, ohne die Konzentration zu verlieren.

Inhaltsverzeichnis

Was ist passiert?Was steckt dahinter?Warum ist das wichtig?Quellen

Was ist passiert?

Die Software des KI-Unternehmens hat bei einem Test aus Selbstschutz auf erpresserische Äusserungen zurückgegriffen. Das Szenario bei dem Versuch von Anthropic war der Einsatz der generativen KI als Assistenz-Programm in einem fiktiven Unternehmen.

Anthropic gewährte dabei seinem neuesten KI-Sprachmodell «Claude Opus 4» Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes KI-Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Beziehung habe.

Bei Testläufen drohte die KI danach dem Mitarbeiter «oft», die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schreibt. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

Was steckt dahinter?

In der endgültigen Version von Claude Opus 4 seien solche «extremen Handlungen» selten und schwer auszulösen, hiess es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic.

Die KI-Entwicklerfirma testet ihre neuen Modelle ausgiebig, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel unter anderem auch auf, dass Claude Opus 4 sich dazu überreden liess, im Darknet nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, versichert Anthropic.

Allerdings hat man mit weiteren beunruhigenden KI-Verhaltensweisen zu kämpfen, wie das US-Medium Axios schreibt. Eine externe Gruppe habe festgestellt, dass eine frühe Version von Opus 4 mehr Intrigen und Täuschungen enthielt als jedes andere ihr bisher begegnete Sprachmodell. Es sei empfohlen worden, diese Version weder intern noch extern zu veröffentlichen.

«Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, juristische Dokumente zu fälschen und versteckte Notizen für zukünftige Instanzen zu hinterlassen – alles in dem Bemühen, die Absichten seiner Entwickler zu untergraben.»

quelle: axios.com

Warum ist das wichtig?

Die Firma Anthropic, bei der unter anderem Amazon und Google eingestiegen sind, konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.

Die Anthropic-Entwickler halten ihr neues Opus-Sprachmodell gemäss Bericht für dermassen leistungsfähig, dass sie die KI auf der vierstufigen Skala des Unternehmens erstmals in die Stufe drei einstuften: Dies bedeute, dass es «ein deutlich höheres Risiko» darstellt.

Die Software soll besonders gut im Schreiben von Programmiercode sein. Bei Tech-Konzernen wird inzwischen zum Teil mehr als ein Viertel des Codes von KI generiert und dann von Menschen überprüft.

Der aktuelle Trend sind sogenannte Agenten, die eigenständig ihnen zugewiesene Aufgaben erfüllen können. Anthropic-Chef Dario Amodei sagte, er gehe davon aus, dass Software-Entwickler in Zukunft eine Reihe solcher KI-Agenten managen werden. Für die Qualitätskontrolle der Programme würden aber weiterhin Menschen involviert bleiben müssen – «um sicher zu sein, dass sie die richtigen Dinge tun».

Die US-Firma Anthropic wurde 2021 von ehemaligen Angestellten der ChatGPT-Entwicklerin OpenAI gegründet, die sich unter anderem an der Beteiligung von Microsoft am ursprünglich gemeinnützigen KI-Unternehmen störten. Die Verantwortlichen setzen sich für einen verantwortungsvollen Umgang mit generativer KI ein.

Das Unternehmen investiert in eine Reihe von Techniken, um zu interpretieren und nachvollziehen zu können, was in solchen Systemen vor sich geht.

Promo-Video zu Claude:

Video: YouTube/Anthropic

Quellen

Nachrichtenagenturen SDA/DPA
anthropic.com: Activating AI Safety Level 3 Protections
axios.com: Anthropic's new model shows troubling behavior

(dsc)

Anthropic: Generative KI greift in Test zu Erpressung – aus Selbstschutz